排队系统出现在许多重要的现实生活应用中,包括通信网络,运输和制造系统。加固学习(RL)框架是排队控制问题的合适模型,在该问题中,基础动力通常未知,并且代理几乎没有从环境中接收到导航的信息。在这项工作中,我们将排队模型作为RL环境的优化方面进行了研究,并提供了有效学习最佳政策的见解。我们通过使用排队网络系统的固有属性来提出策略的新参数化。实验显示了我们的方法的良好性能,从轻度到繁忙的交通状况各种负载条件。
translated by 谷歌翻译
在本文中,我们提出了Nesterov加速改组梯度(NASG),这是一种用于凸有限和最小化问题的新算法。我们的方法将传统的Nesterov的加速动量与不同的改组抽样方案相结合。我们证明,我们的算法使用统一的改组方案提高了$ \ Mathcal {o}(1/t)$的速率,其中$ t $是时代的数量。该速率比凸状制度中的任何其他改组梯度方法要好。我们的收敛分析不需要对有限域或有界梯度条件的假设。对于随机洗牌方案,我们进一步改善了收敛性。在采用某种初始条件时,我们表明我们的方法在解决方案的小社区附近收敛得更快。数值模拟证明了我们算法的效率。
translated by 谷歌翻译